在做项目的时候,发现在训练集中,正负样本比例比例在1:7左右,虽然相差不多(但在实际获取的样本比例大概在1:2000左右),所以有必要探讨一下在样本不均衡的情况下,这些训练数据会对模型产生的影响。 ...
在做项目的时候,发现在训练集中,正负样本比例比例在1:7左右,虽然相差不多(但在实际获取的样本比例大概在1:2000左右),所以有必要探讨一下在样本不均衡的情况下,这些训练数据会对模型产生的影响。 ...
在日常模型训练过程中,模型有多种选择,模型的参数同样也有多种选择,如何根据同一批数据选出最适合的模型和参数呢? 一般情况下,模型还比较好选择,是选用机器学习中分类模型例如 LR、SVM或XGBoos ...
在深度学习中,监督类学习问题其实就是在规则化参数同时最小化误差。最小化误差目的是让模型拟合训练数据,而规则化参数的目的是防止模型过分拟合训练数据。 参数太多,会导致模型复杂度上升,容易过拟合,也就是 ...
什么是交叉验证? 它的基本思想就是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。 主要是用于小部分数据集中。通过图片可以看出,划分出来的测试集(t ...
验证曲线的作用 我们知道误差由偏差(bias)、方差(variance)和噪声(noise)责成。 偏差:模型对于不同的训练样本集,预测结果的平均误差。 方差:模型对于不同训练样本集的敏感程度 ...
本文结构: 什么是激活函数 为什么要用 都有什么 sigmoid、ReLU、softmax的比较 如何选择 1. 什么是激活函数 如下图,在神经元中,输入的input ...
在处理机器学习任务时,我们都需要使用数据,当然,有时候数据集可以很大,有时候数据集数量不是很理想,那么如何针对这些数据得出更加有效的模型呢? 大型数据集 Idea #1: 当我们拿到数据集 ...